例えば「アライメントの論文」を”15分で作った”JARVISに渡してみる。概要がすっと出てきて、アライメントって何、みたいな対話で理解できる。しかしRLHFがReinforcement Learning from Human Feedbackだ、ということがわかるかというとまだまだ工夫が必要。 LLM論文読み会いいね！ #GPT_Findy https://t.co/nClVVFLL51